New York Times | 2025-05-05 | 13:03:24

A.I. Става все по-мощен, но халюцинациите му се влошават

предишния месец, a.i. Bot, който обработва техническата поддръжка за Cursor, настоящ инструмент за компютърни програмисти, алармира няколко клиенти за смяна в политиката на компанията. В него се споделя, че към този момент не им е разрешено да употребяват курсор на повече от единствено един компютър.

В гневни изявления в таблата за интернет известия, клиентите се оплакаха. Някои анулираха своите сметки на курсора. И някои се схванаха още, когато схванаха какво се е случило: A.I. Bot разгласи смяна в политиката, която не съществува.

" Нямаме такава политика. Разбира се, вие сте свободни да употребявате Cursor на голям брой машини ", написа основният изпълнителен шеф и съосновател на компанията Майкъл Труел, написа в Reddit Post. „ За страдание, това е погрешен отговор от фронтовата линия A.I. Поддръжка. “

Повече от две години след идването на Chatgpt, софтуерните компании, офис служащите и ежедневните консуматори употребяват A.I. ботове за все по -широк набор от задания. Но към момента няма метод да се подсигурява, че тези системи дават точна информация.

Системите за размишление от компании като Openai, Гугъл и китайския започващ DeepSeek-генерират повече неточности, а не по-малко. Тъй като техните математически умения се усъвършенстваха доста, работата им с обстоятелствата стана по -разклатена. Не е изцяло ясно за какво.

Днешният A.I. Ботовете се основават на комплицирани математически системи, които научават своите умения, като проучват големи количества цифрови данни. Те не - и не могат - да вземат решение какво е правилно и кое е погрешно. Понякога те просто измислят неща, феномен някои A.I. Изследователите назовават халюцинации. На един тест степента на илюзия на по -нови A.I. Системите са до 79 %.

Тези системи употребяват математически вероятности, с цел да отгатят най-хубавия отговор, а не непоколебим набор от правила, избрани от човешките инженери. Така те вършат избран брой неточности. „ Въпреки най-хубавите ни старания, те постоянно ще халюцинират “, споделя Амр Авадала, основният изпълнителен шеф на Vectara, пускане, което построява A.I. Инструменти за бизнеса и някогашен изпълнителен шеф на Гугъл. „ Това в никакъв случай няма да изчезне. “

Писане на срочни документи, обобщаване на офис документи и генериране на компютърен код - техните неточности могат да основат проблеми.

Окаху, компания, която оказва помощ на бизнеса да се ориентира в казуса с халюцинацията. “Not dealing with these errors properly basically eliminates the value of A.I. systems, which are supposed to automate tasks for you. ”

Cursor and Mr. Truell did not respond to requests for comment.

For more than two years, companies like OpenAI and Гугъл Постоянно усъвършенстват своя A.I. системи и понижи честотата на тези неточности. Но с потреблението на нови системи за разсъждения грешките нарастват. Най-новите системи Openai халюцинират с по-висока скорост от предходната система на компанията, съгласно личните проби на компанията.

Компанията откри, че O3-най-мощната му система-халюцинирана 33 % от времето, когато организира теста на Personqa с тест, което включва да дава отговор на въпроси за публичните персони. Това е повече от два пъти по -голяма от степента на илюзия на предходната система за разсъждения на Openai, наречена O1. Новият O4-Mini халюцинира с още по-висока скорост: 48 %.

В документ, в който в детайли се разказва тестванията, Openai съобщи, че са нужни повече проучвания, с цел да се разбере повода за тези резултати. Защото A.I. Системите се учат от повече данни, в сравнение с хората могат да обвият главата си в близост, технолозите се борят да дефинират за какво се държат по методите, по които вършат.

" халюцинациите не са по-разпространени в модели за разсъждения, макар че интензивно работим, с цел да понижим по-високите проценти на илюзия, които виждаме в O3 и O4-Mini. „ Ще продължим нашите проучвания за халюцинации във всички модели, с цел да подобрим точността и надеждността. “

Hannaneh Hajishirzi, професор от Вашингтонския университет, който се проследяваше на Института на Allen за изкуствено разузнаване, е част от екип, който неотдавна беше проследяван метод на следене на държанието на хората, които се проследяваха на Института на Allen за изкуствено разузнаване, е част от екип, който неотдавна се откри на следенето на държанието на хората, които неотдавна бяха проследяван. Но защото системите се учат от толкоз доста данни - и тъй като те могат да генерират съвсем всичко - този нов инструмент не може да изясни всичко. „ Все още не знаем по какъв начин работят тъкмо тези модели “, сподели тя.

наблюдава какъв брой постоянно чатботите се отклоняват от истината. Компанията моли тези системи да извършват директна задача, която е елементарно тествана: Обобщете съответни публикации за вести. Дори тогава чатботите настойчиво измислят информация.

Оригиналното изследване на Vectara пресметна, че в тази обстановка чатботите са съставлявали информация най-малко 3 % от времето, а от време на време и 27 %. диапазонът от 1 или 2 %. Други, като започващия антропик в Сан Франциско, се носеха към 4 %. Но степента на илюзия на този тест се увеличи със системите за размишление. Системата за разсъждения на Deepseek, R1, халюцинира 14,3 % от времето. O3 на Openai се изкачи до 6.8.

(The New York Times заведе дело на Openai и неговия сътрудник, Microsoft, като ги упрекна в нарушение на авторски права във връзка с наличието на вести, обвързвано с A.I. Systems. Openai и Microsoft отхвърлиха тези изказвания.)

По-добре тези системи ще извършват. Но те използваха съвсем целия британски текст в интернет, което означаваше, че се нуждаят от нов метод за възстановяване на своите чатботи.

Така че тези компании се навеждат по-силно на техника, която учените назовават засилено образование. С този развой системата може да научи държание посредством опити и неточности. Той работи добре в избрани области, като математика и компютърно програмиране. Но той не доближава в други области.

" Начинът, по който се образоват тези системи, те ще стартират да се концентрират върху една задача-и да стартират да не помнят за другите ", сподели Лора Перес-Белтрачини, откривател в университета в Единбург, който е измежду екипа, който преглежда казуса с халюцинацията. class = " css-at9mc1 evys1bk0 " > Друг проблем е, че модели на разсъждения са предопределени да отделят време за „ мислене “ посредством комплицирани проблеми, преди да се открият на отговор. Докато се пробват да се оправят с проблематичния малко по малко, те рискуват да халюцинират на всяка стъпка. Грешките могат да се усложняват, защото прекарват повече време в мислене.

Последните ботове разкриват всяка стъпка към потребителите, което значи, че и потребителите могат да виждат и всяка неточност. Изследователите също са разкрили, че в доста случаи стъпките, показани от бот, не са свързани с отговора, който в последна сметка доставя.

" Това, което системата споделя, че не е наложително какво мисли ", сподели Арио Прадипта Гема, А.И. Изследовател в Университета в Единбург и помощник в Anthropic.

Източник: nytimes.com